خوشه بندی فراابتکاری اسناد فارسی اِکس اِم اِل مبتنی بر شباهت ساختاری و محتوایی
نویسندگان
چکیده
با توجه به رشد فزاینده ی تعداد اسناد xml، سازماندهی موثر این اسناد به منظور بازیابی اطلاعات مفید از آنها ضروری می باشد. یک راه حل امکان پذیر، انجام خوشه بندی بر روی اسناد xml به منظور کشف دانش است. مسئله کلیدی در خوشه بندی اسناد xml این است که چگونه می توان شباهت بین اسناد xml را اندازه گیری کرد. استفاده از روش های متداول خوشه بندی اسناد متنی که اطلاعات محتوایی را برای اندازه گیری شباهت سند بکار می گیرند، باعث می شود اطلاعات ساختاری موجود در اسناد xml نادیده گرفته شود. در این مقاله، مدل جدیدی با نام مدل فضای ماتریسی برای بازنمایی هر دو ویژگی ساختاری و محتوایی داده ها در اسناد xml، پیشنهاد می شود. بر اساس این مدل، معیار شباهت جاکارد را تعریف و در نهایت از الگوریتم رقابت استعماری برای خوشه بندی اسناد xml استفاده می شود. نتایج تجربی نشان می دهد که مدل پیشنهادی و تابع نزدیکی معرفی شده در شناسایی اسناد مشابه که دارای اطلاعات ساختاری و محتوایی یکسان هستند، موثر است. این روش می تواند به منظور بهبود دقت خوشه بندی و افزایش بهره وری در بازیابی اطلاعات xml مورد استفاده قرار گیرد.
منابع مشابه
خوشهبندی فراابتکاری اسناد فارسی اِکساِماِل مبتنی بر شباهت ساختاری و محتوایی
Due to the increasing number of documents, XML, effectively organize these documents in order to retrieve useful information from them is essential. A possible solution is performed on the clustering of XML documents in order to discover knowledge. Clustering XML documents is a key issue of how to measure the similarity between XML documents. Conventional clustering of text documents using a do...
متن کاملخوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی
خوشه بندی، روش داده کاوی قدرتمندی است که جهت کشف موضوع از اسناد متنی مورد استفاده قرار می-گیرد. در این زمینه الگوریتم های خانواده k-means به دلیل سادگی و سرعت بالا، در خوشه بندی داده هایی با ابعاد بالا، کاربرد فراوانی دارند. در این الگوریتم ها، معیار شباهت cosine، تنها شباهت میان زوج اسناد را اندازه گیری می کند که در مواقعی که خوشه ها به خوبی تفکیک نشده باشند، عملکرد مناسبی ندارد. درمقابل، مفاه...
15 صفحه اولبسط پرس وجو با خوشه بندی اسناد شبه بازخورد با شباهت حساس به پرس وجو
بسط پرسوجو بهعنوان یکی از روشهای انطباق پرسوجو، اثربخشی جستجو را در بازیابی اطلاعات افزایش میدهد. بازخورد شبه مرتبط (PRF) روشی برای بسط پرسوجو است که فرض میکند اسناد رتبه بالا از نتایج اولیه مرتبط به موضوع پرسوجو هستند و کلمات بسط را از این اسناد انتخاب میکند. درحالیکه ممکن است اسناد نامرتبط به پرسوجو در اسناد رتبهبالا وجود داشته باشد. روشهایی برای انتخاب اسناد مرتبط و نادیده گرفتن...
متن کاملخوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی
داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با ...
متن کاملخوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی
داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از مقدار زیادی داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد.سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می...
اثربخشی بسط پرس وجو مبتنی بر خوشه بندی اسناد شبه بازخورد با الگوریتم k-nn
بسط پرس وجو یکی از روش های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه مرتبط (prf) فرض می کند که اسناد رتبه بالا از نتایج اولیه بازیابی شده مرتبط به پرس وجو است و تعدادی کلمه مرتبط را از اسناد رتبه بالا برای بسط انتخاب می کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش هایی برای انتخاب بهترین اسناد به عنوان منبع برای انتخاب کلمه بسط سوق می دهد که انتخا...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
پردازش علائم و داده هاجلد ۱۳، شماره ۲، صفحات ۱۱-۲۳
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023